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Beschreibung 

Verfahren und Anordnung zxmt Erkennen von Sprache 

5 Die vorliegende Erfindung betrifft ein Verfahren und eine An- 
ordnung zum Erkennen von Sprache. 

Verfahren zum automatischen Erkennen von Sprache werden in 
Spracherkennungssystemen eingesetzt. Anwendungen von Spra- 
10 cherkennungssystemen sind 2,B, Diktiersysteme oder automa- 
tisch arbeitende Telefonvermittlungen. 

^ Bei bisher bekannten Verfahren zum autoiaatischen Erkennen von 
Sprache werden durch Nebengerausche haufig Erkennungsfehier 
15 verursacht* Bei diesen NebengerSuschen unterscheidet man zwei 
Arten, namlich die Sprache eines weiteren Sprechers, die zwar 
meistens korrekt erkannt wird, aber dero Sprachsignal des ei- 
gentlichen Sprechers nicht zugeordnet werden sollte, und ein 
kein Sprachsignal darstellendes Nebengerausche wie z.B. Atem- 
20 gerausche, das falschlicherweise als Sprache erkannt wird. 

Die Nebengerausche stellen eine erhebliche Fehlerquelle bei 
der automatischen Erkennung von Sprache dar. 

25 Zur Vermeidung derartiger Fehler werden Spracherkennungssy- 
steme auf die Sprechweise der einzelnen Sprecher trainiert, 
so dafi das Spracherkennungssystem f est stellen kann, ob das 
akustische Signal vom Sprecher stanuat oder ein Nebengerausch 
ist. Spracherkennungssysteme mit haufig wechselnden Sprechern 

30 kannen nicht auf jeden einzelnen Sprecher trainiert werden. 
So ist es unmoglich/ bei einem in eine Telefonanlage inte- 
grierten Spracherkennungssystem mit jedem Anrufer eine mehre- 
re Minuten dauemde Trainingsphase durchzuftihren, bevor er 
seine Nachricht sprechen kann, die oftmals nur Bruchteile ei- 

35 ner Minute dauert. 
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Demnach ist es die Aufgabe der vorliegenden Erfindung, ein 
Erkennen von Sprache zu erm5glichen, wobei durch NebengerSu- 
sche erzeugte Erkennungsfehler verringert warden* 

Diese^ Aufgabe wird gemaB den Merkmalen der unabhangigen Pa- 
tentansprliche gelost. Weiterbildungen der Erfindung ergeben 
sich auch aus den abhcingigen Ansprtlchen. 

Zur Losung der Erfindung wird ein Verfahren zum Erkennen von 
Sprache angegeben, bei dero anhand von Wortgrenzen WSrter und 
Pausen in der Sprache bestiirant werden. Es wird eine mittlere 
Ruhelautstarke (Si-Level) wahrend der Pausen ermittelt, Auch 
wird eine mittlere Wortlautstarke (Wo-Level) fUr die Worter.,^ 
ermittelt. Weiterhin wird eine Differenz (A) zwischen der 
mittleren Wortlautstarke (Wo-Level) und der mittleren Ruhe- 
lautstarke (Si-Level) bestimmt. Sprache wird erkannt, falls 
die Differenz (A) zwischen der mittleren Wortlautstarke (Wo- 
Level) und der mittleren Ruhelautstarke (Si-Level) gr5fler als 
ein vorbestimmter Schwellwert (S) ist* Ansonsten wird keine 
Erkennung der Sprache in dieseia Bereich durchgeflihrt. 

Die Differenz A bildet einen Lautstarkenabstand zwischen den 
gesprochenen Wortern und den Gerauschen in den Pausen. Ist 
der Lautstarkenabstand eines erkannten Wortes zu gering, wird 
es als nicht korrekt erkanntes Wort bewertet. Es wird somit 
festgestellt, ob ein Wort einen vorbestimmten Lautstarkenab- 
stand zum Ubrigen Gerauschpegel besitzt- Hierbei wird der Ura- 
stand ausgenutzt, dafi Nebengerausche, die bei herkOmmlichen 
Verfahren zum automatischen Erkennen von Sprache haufig zu 
fehlerhaften Erkennungen fUhren, leiser als die vom Sprecher 
gesprochenen W5rter sind, Diese Nebengerausche kttnnen mit der 
Erfindung einfach ausgefiltert werden, unabhangig davon, ob 
sie Worter enthalten Oder Gerausche sind, die kein Sprachsi- 
gnal darstellen. 

Das erfindungsgemafle Verfahren kann zudem sehr einfach reali- 
siert werden, da lediglich die mittlere Lautstarke Uber Telle 
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des 2U analysierenden Sprachsignalabschnittes bestimmt werden 
mufi. Als LautstSrke im Sinne der Erfindung wird jede physika- 
lische Grttfie verstanden, die etwa proportional 2ur physikali- 
schen LautstSrke ist, die in Dezibel gemessen wird. Hierzu 
5 proportionale GroBen sind die Energie des akustischen Signals 
bzw» eines korrespbndierenden elektrischen Signals und insbe- 
sondere deren elektrische GreBen, wie z.B. die Spannung oder 
der Stroiu. 

10 Insbesondere ist es bei der Erkennung von Sprache wesentlich, 
dafl die richtigen AuBerungen des richtigen Sprechers erkannt 
werden. Dies ist insoweit problematisch, als ein Umgebungsge- 
rausch, in dem deutlich Sprachbestandteile enthalten sind, 
von einem System zur Erkennung von Sprache derart aufgefafit 

15 werden konnen, als stammten sie von dem Sprecher von dem die 
tatsachlich zu erkennende Sprache kommt. Urn eine Vermischung 
zu verhindern, wird hiermit ein Verfahren zur Unterscheidung 
der richtigen von der falschen gesprochenen Sprache angege- 
ben» Insbesondere ist der Pegel des Sprechers, dessen Sprache 

20 zu erkennen ist, zumeist deutlich hoher, als Sprache von* dem 
Storgerausch, das zumeist aus dem Hintergrund kommt. Somit 
kann anhand des Lautstarkepegels des Sprechers, dessen Spra- 
che erkannt werden soil/ diese von dem Hintergrundgerausch 
unterschieden werden. 


Ferner wird zur L5sung der Aufgabe eine Anordnung zum Erken- 
nen von Sprache angegeben, die eine Prozessoreinheit auf- 
weist, die derart eingerichtet ist, daB 

a) anhand von Wortgrenzen W6rter und Pausen in der Spra- 
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che bestimmbar sind; 

eine mittlere Ruhelautst^rke (Si-Level) wahrend der 
Pausen ermittelbar ist; 

eine mittlere Wortlautstarke (Wo-Level) ftlr die W5rter 
ermittelbar ist; 

eine Differenz (A) zwischen der mittleren Wortlaut- 
starke (Wo-Level) und der mittleren RuhelautstSrke 
(Si-Level) bestimmbar ist; 


b) 


c) 


35 


d) 


4 

e) Sprache erkannt wird, falls die Differenz (A) zwischen 
der mittleren WortlautstSrke (Wo-Level) und der mitt- 
leren Ruhelautstarke (Si-Level) grSBer als ein vorbe- 
stimmter Schwellwert (S) ist; 

f) ansonsten keine Erkennung der Sprache durchgeftihrt 
wird. 

Diese Anordnung ist insbesondere geeignet zur Durchfuhrung 
des erfindungsgemafien Verfahrens Oder einer seiner vorstehend 
eriauterten Weiterbildungen. 

Die Erfindung wird im folgenden unter Bezugnahme auf die zu- 
geh5rigen Zeichnungen beispielhaft nSher erlSutert. j 

In den Zeichnungen zeigen 

Fig.l schematisch ein Verfahren zur Erkennung von Sprache 
in einem FluBdiagramm; 

Fig, 2 ein Diagramm, das einen Teil eines Signalabschnittes 
darstellt; 

Fig. 3 schematisch eine Telekommunikations-Anlage, die nach 
dem erfindungsgemafien Verfahren arbeitet, in einem 
Blockschaltbild. ^ 

In Fig.l ist ein Verfahren zum automatischen Erkennen von 
Sprache schematisch dargestellt. Dieses Verfahren wird in der 
Praxis durch ein Computerprogramm realisiert, das auf einem 
Computer oder einer Prozessoreinheit arbeitet, die einen Ein- 
gang fiir ein Sprachsignal aufweist. 

Das Verfahren bzw. das entsprechende Programm wird im Schritt 
SI gestartet, Im folgenden Schritt S2 wird ein Wort eines 
Sprachsignals S analysiert. Diese Analyse erfolgt in an sich 
bekannter Weise, wobei das akustische Sprachsignal, das Ubli- 
cherweise als in ein elektrisches Signal gewandeltes Signal 
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\ ; vorliegt, in warter unci Pausen segmentiert wird und die Wor- 

ter in Text gewandelt werden. Das Segmentieren des Signalab- 
schnittes erfolgt z.B. nach dem Viterbi-Allignment-Verfahren. 

» 

5 In Fig. 2 ist ein Diagramm dargestellt, das in einem Koordina- 
tensystero einen Teil eines Signalabschnittes S zeigt- In die- 
sem Koordinatensystem ist auf der Abszisse die Zeit t und auf 
der Ordinate die Lautstarke aufgetragen. Die Lautstarke ist 
als Logarithmus der Energie E des Signals S angegeben. 

10 

Als Lautstarke im Sinne der Erfindung wird jede physikalische 
J , GroBe verstanden, die etwa proportional zur physikalischen 

• Lautstarke ist, die in Dezibel gemessen wird. Hierzu propor- 

tionale Gr^flen sind neben der Energie des Signals S die elek- 
15 trischen GroBen des in ein elektrisches Signal gewandelte 
akustischen Signals, wie die Spannung oder der Strom. 

Bei der Segmentierung des Signalabschnittes S werden Zeit- 
punkte tl, t2 bestimmt, die jeweils eine Grenze zwischen ei- 
20 ner Pause P und einem Wort W festlegen, Im dargestellten Aus- 
fuhrungsbeispiel ist zwischen dem Zeitpunkt 0 und tl bzw. 
nach dem Zeitpunkt t2 eine Pause und zwischen den Zeitpunkten 
tl und t2 stellt das Signal S ein Wort dar. 

25 Im Schritt S3 wird eine mittlere Ruhelautstarke Si-Level be- 
stimmt. Die mittlere Ruhelautstarke Si-Level ist der zeitli- 
che Mittelwert der Lautstarke von einem oder mehreren Pausen- 
abschnitten P. 

30 Im Schritt S4 wird eine mittlere WortlautstSrke Wo-Level be- 
stimmt. Die mittlere Wortlautstarke Wo-Level ist der zeitli- 
che Mittelwert der Lautstarke von einem einzelnen Wortab- 
schnitt W. D.h.r dafi fUr jedes einzelne Wort ein separater 
Wo-Level berechnet wird. 


35 
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Im nachfolgenden Schritt S5 wird eine Differenz A zwischen 
der mittleren Wortlautstarke Wo-Level und der mittleren Ruhe- 
lautst^rke Si-Level berechnet: 

5 A = Wo-Level - Si-Level 

Danach wird im Schritt S6 abgefragt, ob die Differenz A 
kleiner als ein Schwellwert SW ist* Der Schwellwert SW stellt 
einen „Lautst^rkenabstand^' dar (siehe auch Fig. 2) . 

10 

Ergibt diese Abfrage, dafl die Differenz A kleiner als der 
Schwellwert SW ist, so bedeutet dies, dafi der LautstSrkenab- ^ 
stand zwischen der mittleren Wortlautstarke Wo-Level und der 
mittleren Ruhelautstarke Si-Level kleiner als der vorbestimm- 

15 te Schwellwert SW ist. Das Wort^ dessen LautstSrkenabstand 
zwischen der mittleren Wortlautstarke Wo-Level und der mitt- 
leren Ruhelautstarke Si-Level kleiner als der vorbestimmte 
Schwellwert SW ist, wird als nicht korrekt erkannt beurteilt, 
da die Erfinder der vorliegenden Erfindung festgestellt ha- 

20 ben, daS die NebengerSusche in der Regel leiser als die aus- 
zuwertenden Wortsignale sind oder dafi bei einem konstanten 
Storgerausch (Rauschen in der Leitung, lautes Hintergrundge- 
rausch) / bei welchen keine zuf riedenstellende Spracherkennung 
moglich ist, der Lautstarkenabstand zwischen der mittleren 

25 Wortlautstarke und der mittleren Ruhelautstarke sehr gering ^ ? 
ist. Wird in beiden Fallen das erfaBte Signal in einen Text 
gewandelt, kommt es fast immer zu einer Fehlerkennung, Ergibt 
die Abfrage im Schritt S6, dafi die Differenz A kleiner als 
der Schwellwert SW ist, so wird der Programmablauf auf den 

30 Schritt S7 verzweigt, in dem eine Fehlerbehebung ausgefUhrt 
wird, die unten naher erlautert wird. Danach wird im Schritt 
S8 geprlift, ob ein weiteres Wort zu beurteilen ist. Falls das 
Ergebnis im Schritt S6 ist, dafi die Differenz A groBer als 
der Schwellwert SW ist, wird der Programmablauf direkt auf 

35 eine Abfrage im Schritt S8 verzweigt. 


GR 99 P 2588 



7 

Mit der Abfrage im Schritt S8 wird geprtlft/ ob noch ein wei- 
teres Wort zu analysieren und zu bewerten ist, und falls das 
Ergebnis ,/ja'' ist, wird der Prograinmablauf zurtick auf den 
Schritt S2 gefUhrt, ansonsten wird das Programm mit dem 
5 Schritt S9 beendet. 

Bei dem oben beschriebenen AusfUhrungsbeispiel warden die er- 
fafiten W5rter einzeln analysiert, in Text gewandelt und be- 
wertet* Dieses Verfahren wird als schritthaltende Erkennung 
10 bezeichnet, Hierbei ist es zweckmSBig, dafl die Differenz A 
aus der mittleren Wortlautstarke Wo-Level eines Wortes W und 
der mittleren RuhelautstSrke Si-Level der unmittelbar vorher- 

j 

gehenden Pause P gebildet wird. Es ist aber auch mSglich/ die 
mittlere Ruhelautstarke der auf das Wort W folgenden Pause 
15 Oder eine liber die vorhergehende oder die folgende Pause ge- 
mittelte Ruhelautstarke zu verwenden. 


Anstelle einer schritthaltenden Erkennung kann auch eine meh- 
rere W5rter zusammenfassende Erkennung verwendet werden. 
20 Hierbei ist es ublich jeweils einen vollstandigen Satz als 
Signalabschnitt aufzunehmen und dann am Stuck zu analysieren 
{satzweise Erkennung) . Bei einer solchen satzweisen Erkennung 
kann die Ruhelautstarke iiber alle Pausen P gemittelt werden, 
wobei jedoch die mittlere Wortlautstarke ftir jedes Wort W 
J2$ einzeln zu ermitteln ist/ damit die einzelnen Wdrter als kor- 
rekt Oder riicht korrekt erkannt beurteilt werden k5nnen. 

Bei der Fehlerbehebung im Schritt S7 gibt es je nach Anwen- 
dungsfall unterschiedliche Varianten, die einzeln oder in 
30 Kombination eingesetzt werden konnen. 

Nach der ersten Variante werden Worter, die als nicht korrekt 
erkannt beurteilt worden sind/ bei der Umwandlung in einen 
Text nicht beriicksichtigt bzw, aus diesem entfernt. 

35 

Nach der zweiten Variante der Fehlerbehebung wird bei einera 
als nicht korrekt erkanntem Wort eine entsprechende Nachricht 
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an den Benutzer ausgegeben. Die Nachricht kann als akustische 
Nachricht (z.B.: ^,Das letzte Wort wurde nicht korrekt ver- 
standen'') ausgegeben warden oder als bildliche Darstellung 
angezeigt werden. Ersteres ist fUr Spracherkennungssysteme 
5 ohne Anzeige, wie z*B. Telekommunikationsanlagen mit automa- 
tischer Spracherkennung zweckin^Big, und zweiteres kann z.B» 
bei Diktiersystemen sinnvoll sein. Bei Diktiersystemen kann 
als bildliche Darstellung ein vorbestimmtes Fehl-Zeichen an 
der entsprechenden Stelle im Text eingesetzt werden, mit dem 
10 der Benutzer aufgefordert wird, das Wort neu zu sprechen, das 
dann automatisch an die Stelle des Fehl-Zeichens in den Text 
eingesetzt wird. Will der Benutzer hier kein Wort einsetzen 
kann er eine entsprechende L5schfunktion zura Beseitigen •des'^''^' 
Fehl-Zeichens betatigen, 

15 

Nach einer dritten Variante der Fehlerbehebung kann der Be- 
nutzer durch eine entsprechende Nachricht aufgefordert wer- 
den, lauter zu sprechen, damit der geforderte Lautstarkenab- 
stand erzielt wird. Hierdurch erfolgt eine Anpassung der 
20 Spracheingabe an die akustischen Bedingungen (Gerauschpegel 
beim Sprecher) bzw, den Bedingungen der Obertragung (Rauschen 
in der Leitung) des akustischen Signals. Falls eine wieder- 
holte Aufforderung lauter zu sprechen zu keinem besseren Er- 
kennungsergebnis ftihrt, kann der Benutzer auch aufgefordert 
werden, andere akustische Bedingungen bzw. ObertragungsbedirK..^ 
gungen zu schaffen, indem er z.B. aufgefordert wird, von ei- 
nem anderen Telefonapparat zu telefonieren, falls er Uber ein 
Telefon mit dem Spracherkennungssystem verbunden ist. 


25 


30 


35 


Nach einer vierten Variante der Fehlerbehebung kann bei meh- 
reren, auf einanderf olgend als nicht korrekt erkannt bewerte- 
ten Wortern dies als zu geringe QualitSt der Spracheingabe 
beurteilt und dem Benutzer mit einer entsprechenden Nachricht 
ausgegeben werden. 

Nach einer funften Variante der Fehlerbehebung werden die 
Worter sogenannter n-best-Listen einzeln bewertet. Oftmals 
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kOnnen einer Signalsequenz mehrere, ahnlich klingende Worter 
zugeordnet werden. Diese Worter bilden die n-best-Liste. Da 
sich die Grenzen zwischen den Pausen und dem jeweiligen Wort 
bei den einzelnen W5rtern der n-best-Liste unterscheiden, 
5 k5nnen fUr die einzelnen Worter der n-best-Liste unterschied- 
liche mittlere Wortlautstarken und dementsprechend unter- 
schiedliche Differenzen A ermittelt werden. 


Die Auswahl des Wortes der n-best-Liste, das in den Text ein- 
10 gefUgt wird, erfolgt nach an sich bekannten Match-Kriterien, 
wobei erf indungsgemSfi die Differenz A als zusStzliches 
Match-Kriteriuiu verwendet werden kann, wobei das Wort mit der 
grdliten Differenz A in den Text eingesetzt wird. Diese vier- 
te Variante der Fehlerbehebung bildet einen selbstandigen Er- 
15 findungsgedanken, der auch unabhSngig von dem oben beschrie- 
benen Verfahren bei der automatischen Auswertung von n-best- 
Listen eingesetzt werden kann. 

Bei einer Ausfuhrungsform der Erfindung ist der Schwellwert 
20 5W konstant. 


Es ist jedoch auch mSglich, den Schwellwert SW an die akusti- • 
schen Bedingungen und an die SignalUbertragungsbedingungen 
automatisch anzupassen. Bestehen hervorragende akustische Be- 

?5 dingungen und SignalUbertragungsbedingungen, so werden in der 
Regel hohe Differenzen A erzielt, die wesentlich grofler sind 
als konstante Schwellwerte, die fUr unterschiedliche Anwen- 
dungen und Bedingungen geeignet sein mussen. In einem solchen 
Fall ist es dann zweckiaafiig, wenn der Schwellwert an die ho- 

30 hen Differenzen A angepafit wird. So kann z.B. eine globale 
Differenz Agl zwischen der mittleren Wortlautstarke mehrerer 
erfafiter Worter und der mittleren Ruhelautstarke mehrerer er- 
faflter Pausen berechnet werden und diese globale Differenz 
Agl direkt Oder nach Abzug eines vorbestimmten konstanten 

35 Betrags als Schwellwert SW verwendet werden. Dies ist insbe- 
sondere in Kombination mit der ersten Variante der Fehlerbe- 
hebung von Vorteil/ da hierdurch auch Nebengerausche ausge- 
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filtert werden konnen, die nur geringfUgig leiser als die 
mittlere WortlautstSrke sind. Dies hat zur Folge, dafi bei ei- 
ner Spracheingabe mit hoher QualitSt die Schwelle unterhalb 
der die Signale als nicht korrekt erkannte W5rter beurteilt 
5 werden, hdher gesetzt wird^ als bei einer Spracheingabe mit 
schlechterer QualitSt. Vorzugsweise ist eine untere Grenze 
ftir den Schwellwert vorgesehen^ so dafi dieser nicht auf Null 
vermindert werden kann. 


10 Die Hohe des variablen Schwellwertes kann auch als Qualitats- 
faktor der Spracheingabe beurteilt werden • Erreicht der va- 
riable Schwellwert seine untere Grenze, so bedeutet dies, d^ , 
die Qualitat der Spracheingabe relativ schlecht ist, was dem 
Benutzer entsprechend mitgeteilt werden kann. 

15 

Bei der Berechnung der globalen Differenz werden vorzugsweise 
alle Pausen und Worter berlicksichtigt, die wahrend eines Ge- 
spraches mit dem Spracherkennungssystem gesprochen werden. 

20 In Fig. 3 ist eine AusfUhrungsbeispiel einer Vorrichtung zum 
Erkennen von Sprache dargestellt. Diese Vorrichtung ist eine 
Telekommunikations-Anlage 1, die Uber eine Netzleitung 2 mit 
einem Telefonnetz verbunden ist. Die Telekommunikations- 
Anlage 1 weist eine Teilnehmer-Zugangssteuerung 3 auf, mit . 

25 welcher von aufierhalb anrufende Fernsprechteilnehmer Uber 

nen internen Bus 4, einem Digital/Audio-Prozessor 5 und loka- 
len Telefonleitungen 6 mit einem Telefonendgerat 7 bzw. mit 
dem das Telef onendgerSt benutzenden Benutzer verbunden werden 
konnen. Der interne Bus 4 ist mit einer T^sageeinheit 8 und 

30 einer Spracheinheit 9 verbunden. Mit der Ansageeinheit 8 kon- 
nen auf den Bus 4 und damit auf die Telefonleitungen 2, 6 An- 
sagen eingebracht werden. Die Telekommunikations-Anlage wird 
von einem Mikroprozessor 10 gesteuert, der mit dem Digi- 
tal/Audio-Prozessor 5, der Ansageeinheit 8 und der Sprachein- 

35 heit 9 verbunden ist. 
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Die Spracheinheit 9 ist aus einem Sprachanalysemodul 11, ei- 
nem Lautst^rkenmeBgerat 12 und einer Sprachsteuerung 13 aus- 
gebildet* 

5 Das Sprachanalysemodul 11 fUhrt die Analyse des Sprachsignals 
durch/ wobei das Sprachsignal in Pausen und W5rter segmen- 
tiert wird und die Worter in Text gewandelt werden* Das 
Sprachanalysemodul leitet an das LautstarkenmeBgerat 12 die 
einzelnen Telle (Worter W und Pausen P) des Sprachsignals S 

10 und an die Sprachsteuerung 13 den konvertierten Text weiter. 
Das LautstcLrkenmeftgerat ermittelt die mittlere Lautst^rke 
^ (Wo-Levelr Si-Level) der einzelnen Telle des Sprachsignals 

-'^ und gibt die entsprechenden Werte an die Sprachsteuerung 13 
weiter. In der Sprachsteuerung 13 wird geprOft/ ob die ein- 

15 zelnen Worter korrekt erkannt worden sind {Schritt S6 in Fi- 
gur 1), wobei ggfs. die Ausfilterung nicht korrekt erkannter 
Worte in der Sprachsteuerung 13 vorgenommen wird (erste Vari- 
ante der Fehlerbehebung) . 

20 Der gefilterte oder ungefilterte Text wird von der Sprach- 
steuerung 13 mit weiteren zur Fehlerbehebung notwendigen Da- 
ten an den Mikroprozessor 10 weitergegeben, der den empfange- 
nen Text und die korrespondierenden Daten auswertet, 

2'5 Eine Funktion des Mikroprozessors 10 ist/ die eingehenden An- 
rufe automatisch mit den jeweiligen TelefonendgerSten 7 zu 
verbinden. Die erfolgt durch Auswertung des vom Sprachsteue- 
rung 13 empfangenen Textes und durch entsprechendes Frei- 
schalten des jeweiligen Ausgangs des Digital/Audio-Prozessors 

30 5. 

Kann der empfangene Text nicht ausgewertet werden oder ist 
eine Fehlerbehandlung mit Ansage (zweite, dritte oder vierte 
Variante) notwendig, so wird die Ansageeinheit 8 vom Mikro- 
35 prozessor zur Durchftihrung der entsprechenden Ansage gesteu- 
ert- 
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In die erf indungsgemaJie Telekommunikations-Anlage ist somit 
eine automatische Vermittlung integriert, die die eingehenden 
Telefongesprache selbstatig an die jeweiligen Telefonendgera- 
te weiterleiten kann. 

5 

Mit der erf indungsgemSBen Telekommunikations-Anlage 1 ist es 
auch moglich, daft die Benutzer der Telefonendgerate 7 die Te- 
lekommunikations-Anlage 1 mit ihrer Stimme steuern und bspw, 
die zu wahlende Nummer sprechen, anstelle sie auf den Tasten 
10 zu tippen. 


All diese Funktionen setzen eine moglichst fehlerfreie Spra- 
cherkennung voraus. Durch die Erfindung konnen Fehler durch ^ 
Nebengerausche, sei es durch ein Sprachsignal im Hintergrund 
15 Oder durch ein kein Sprachsignal darstellendes Gerausch, we- 
sentlich besser und auf einfachere Art und Weise als bei her- 
kommlichen Spracherkennungssystemen vermieden werden. 
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Patentansprilche 

1. Verfahren zum Erkennen von Sprache, 

a) bei dem anhand von Wortgrenzen W5rter und Pausen in 
der Sprache bestimmt werden; 

b) bei dem eine roittlere Ruhelautstarke (Si-Level) wah- 
rend der Pausen ermittelt wird; 

c) bei dem eine mittlere WortlautstSLrke (Wo-Level) fUr 
die Wdrter ermittelt wird; 

d) bei dem eine Differenz (A) zwischen der mittleren 
Wortlautstarke (Wo-Level) und der mittleren Ruhelaut- 
starke (Si-Level) bestimmt wird; 

e) bei dem Sprache erkannt wird, falls die Differenz (A) 
zwischen der mittleren Wortlautstarke (Wo-Level) und 
der mittljeren Ruhelautstarke (Si-Level) grofier als ein 
vorbestimmter Schwellwert (S) ist; 

f) bei dem ansonsten keine Erkennung der Sprache durchge- 
fuhrt wird. 

2» Verfahren nach Anspruch 1, 

bei dem die mittlere Ruhelautstarke und die mittlere 
Wortlautstarke als Logarithmus iiber die erfaflte Energie 
gemes sen wird. 

3. Verfahren nach Anspruch 1 oder 2, 

bei dem eine globale Differenz zwischen der mittleren 
Wortlautstarke mehrerer segmentierter W5rter und der 
mittleren Ruhelautstarke mehrerer segmentierter Pausen 
berechnet wird und anhand der globalen Differenz der 
Schwellwert bestimmt wird. 

4. Verfahren nach Anspruch 3, 

bei dem der Schwellwert der globalen Differenz gleichge- 
setzt wird. 

5. Verfahren nach Anspruch 3, 

bei dem die globale Differenz um einen vorbestimmten/ 
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konstanten Betrag vermindert und der sich hieraus erge- 
bende Lautstarkebetrag als Schwellwert verwendet wird. 

Verfahren nach Anspruch 1 oder 2, 

bei dem ein konstanter Schwellwert verwendet wird. 

Verfahren nach einem der AnsprUche 1 bis 6, 

bei dem ein Wort, fUr das keine Erkennung der Sprache 

durchgeftlhrt wird, nicht weiter berUcksichtigt wird. 

Verfahren nach einem der AnsprUche 1 bis 1 , 

bei dem, falls keine Erkennung der Sprache durchgeftlhrt 

wird, eine Nachricht an einen Benutzer ausgegeben wird. v 

Verfahren nach Anspruch 8, 

bei dem der Benutzer mit der Nachricht aufgefordert wird, 
lauter zu sprechen und/oder das nicht korrekt erkannte 
Wort zu wiederholen. 

Verfahren nach Anspruch 9, 

bei dem ahhand der Nachricht der Benutzer aufgefordert 
wird, lauter zu sprechen, damit ein ausreichender Abstand 
zwischen der mittleren WortlautstSrke zur mittleren Ruhe- 
-lautstarke erzielt wird. 

V 

I 

Verfahren nach einem der vorhergehenden Ansprtlche, 
bei dem die mittlere Ruhelautstarke jeweils fUr eine ein- 
zelne Pause ermittelt wird und die Differenz (A) zwischen 
der mittleren Wortlautstarke (Wo-Level) des gesprochenen 
Wortes und der mittleren Ruhelautstarke (Si-Level) der 
unmittelbar vorausgehenden Pause oder der unmittelbar 
nachfolgenden Pause bestiromt wird, 

Verfahren nach einem der vorhergehenden Ansprtlche, 

bei dem die mittlere Ruhelautstarke ilber mehrere aufein- 

anderfolgende Pausen gemittelt wird und diese gemittelte 
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Ruhelautstarke bei der Bestiinmung der Differenz (A) ver- 
wendet wird. 

13, Verfahren nach einem der vorhergehenden AnsprUche, 

bei dem eine n-best-Liste erstellt wird, und jedem Wort 
der n-best-Liste eine Differenz (A) zwischen der mittle- 
ren Wortlautstarke (Wo-Level) der einzelnen gesprochenen 
WOrter und der mittleren Ruhelautstarke (Si-Level) zuge- 
ordnet wird, und das in den Text aus der n-best-Liste 
einzusetzende Wort nach MaBgabe dieser Differenz (A) zwi- 
schen der mittleren WortlautstarJce (Wo-Level) der einzel- 
nen gesprochenen Worter und der mittleren RuhelautstSrke 
(Si-Level) bestiramt wird. 

14, Anordnung zum Erkennen von Sprache 

mit einer Prozessoreinheit, die derart eingerichtet ist, 
dafi 

a) anhand von Wortgrenzen Worter und Pausen in der Spra- 
che bestimmbar sind; 

b) eine mittlere Ruhelautstarke (Si-Level) wShrend der 
Pausen ermittelbar ist; 

c) eine mittlere Wortlautstarke (Wo-Level) fiXr die"W5rter 
ermittelbar ist; 

d) eine Differenz (A) zwischen der mittleren Wortlaut- 
starke (Wo-Level) und der mittleren Ruhelautstarke 
(Si-Level) bestimmbar ist; 

e) Sprache erkannt wird/ falls die Differenz (A) zwischen 
der mittleren WortlautstSLrke (Wo-Level) und der mitt- 
leren Ruhelautstarke (Si-Level) groBer als ein vorbe- 
stimmter Schwellwert (S) ist; 

f) ansonsten keine Erkennung der Sprache durchgeftlhrt 
wird. 
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Zusainmenfassung 

Verfahren und Anordnung z\m Erkennen von Sprache 

5 Erf indungsgemaB wird ein Lautstc^rkenabstand zwischen den er- 
kannten Wortern und den dazwischen liegenden Pausen ermit* 
telt, 1st der LautstSrkenabstand eines Wortes kleiner als ein 
vorbestimmter Schwellwert, so wird das Wort als nicht korrekt 
erkannt beurteilt. Hierdurch werden durch NebengerSusche ver- 
10 ursachte Fehler auf eine einfache Art und Weise vermieden, 

Figur 2 
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